#AI 人才
NeurIPS掀起AI人才爭奪戰,年薪百萬美元起步
AI國際學會「NeurIPS」的企業攤位(12月3日,美國加州聖迭戈)“第一年的期望薪酬是200萬美元”,德州大學的在讀博士生說。在AI領域中,像強化學習這樣供不應求的方向,「年薪100萬美元」成為企業招攬人才的起始價。會場上到處都能聽到中文…近日,人工智慧(AI)的國際學會「NeurIPS」在美國西部聖迭戈舉辦。近年來,該會議作為企業爭奪AI人才的招募平台屬性愈發突出。在此次創下歷史新高、約2.5萬人參加的現場訪談中可以發現,在AI熱潮的推動下,頂尖研究人員的薪資水準已提高至與職業運動員不相上下。NeurIPS兼具學術會議與招聘會的雙重功能。來自世界各國的研究人員在會場內講解論文,約150家贊助企業在緊鄰會場的區域內設立了展位。各家企業的共同目標,都是為AI研發部門招募優秀人才。在科技界,2025年美國Meta以高薪從競爭對手挖來AI人才,一度成為話題。在各家公司以巨額投資推進AI開發競賽的背景下,頂尖研究人員的待遇與一流的職棒選手不相上下。這股浪潮也波及了研究生們。“第一年的期望薪酬是200萬美元”,美國德州大學奧斯汀分校的在讀博士生(29歲)平靜地說。這是包括簽約獎金和在職數年後可獲得全額的股票薪酬在內的總額,相當於日本大型企業員工的終身工資。他表示,只要有符合條件的錄用邀請,就會選擇退學。他的研究方向是透過讓AI不斷試錯來提升表現的“強化學習”,這是AI企業尤為重視的領域。直到兩年前,他還打算走研究者道路,但看到學長和朋友們以約100萬美元的薪酬入職美國OpenAI等公司後,改變了想法。他表示:「高薪或許只是當前的泡沫現象,就業還是趁早為好」。在AI領域中,像強化學習這樣供不應求的方向,「年薪100萬美元」成為企業招攬人才的起始價。一名就讀於美國維吉尼亞大學博士課程、從事強化學習研究的研究人員表示:“在我周圍,開出100萬美元年薪的報價並不罕見。”參與爭奪的不僅是科技公司。美國大型避險基金城堡投資(Citadel)、DE Shaw、投資公司海納國際集團(Susquehanna International Group)等作為頂級贊助商,佔據了會場入口附近的顯要位置。根據城堡投資的AI團隊負責人介紹,為了將生成式AI的基礎技術、大語言模型客製化為面向金融領域並用於交易,正在招募專業人才。該負責人表示:「相對於以股票報酬為主的科技公司,我們可以提供100萬美元現金」。在汽車製造商方面,除了作為NeurIPS常客的美國特斯拉之外,美國通用汽車(GM)也是近年來首次參加。TikTok(抖音國際版)的母公司字節跳動和阿里巴巴集團等中國企業也參加了本屆NeurIPS。在美國大學就讀的AI研究人員中也有很多來自中國,會場上到處都能聽到中文。阿里巴巴旗下的金融公司螞蟻集團和電商網站淘寶網幾乎沒有在美國的招募崗位,主要是為了吸引回國人才而參展。日本企業的存在感則較弱。(日經中文網)
中國頂尖AI人才,為何仍留在美國?
導語:中美作為全球AI領域的核心競爭者,中國籍AI研究人員的留存與流動直接影響兩國科技競爭力格局。12月3日,美國智庫卡內基國際和平基金會發佈分析文章《頂尖中國AI研究人員是否選擇留美?》,直面中美戰略博弈中科技人才競爭這一核心議題。文章通過對保爾森研究所(Paulson Institute)資料集《全球AI人才追蹤報告》(Global AI Talent Tracker)的獨家追蹤與更新,以詳實資料揭示了近年來頂尖中國籍AI研究人員的職業去向,以及美國對中國AI人才的留存能力與吸引力變化。研究發現,儘管中美關係持續緊張,但絕大多數研究對象仍選擇留在美國,這凸顯了美國當前科研生態系統的“留存”能力依然穩固。但與此同時,文章也指出,美國在“吸引”新一代中國頂尖人才方面已出現明顯的乏力跡象,中國本土科研機會的崛起、AI研發環境的改善,正在改變人才流動的初始選擇。長期以來,來自中國的研究人員一直是美國企業和大學前沿人工智慧研究的最主要貢獻者之一。對頂尖AI研究論文的分析顯示,原籍中國的作者對美國AI成果的貢獻,即便沒有超過美國本土作者,也與之不相上下。但過去七年不斷升級的中美緊張關係引發了一個新問題:這些在美國工作的中國籍AI研究人員如今是否在大規模返回中國?更尖銳地說:美國是否正在培養那些最終會為其頭號地緣政治對手建構AI能力的研究人員?為解答這一問題,我們利用並更新了保爾森研究所(Paulson Institute)2020年一項研究中的獨特資料集——《全球AI人才追蹤報告》(Global AI Talent Tracker)(本文作者馬特·希恩是該研究的作者之一)。該資料集包含675名頂尖AI研究人員的樣本,這些研究人員的論文均被全球頂級AI會議——2019年神經資訊處理系統大會(NeurIPS 2019,接收率約為20%)接收。資料涵蓋了這些研究人員的本科畢業院校(大致可作為原籍國的參考指標)、研究生就讀院校以及當時的工作單位。在這675名研究人員中,截至2019年,恰好有100名中國籍研究人員在美國機構從事研究工作。為評估美國是否留住了這批頂尖AI人才,我們近期收集了這100名研究人員如今的工作去向的更新資訊。結果顯示,其中87人仍就職於美國機構,僅有10人前往中國企業或大學工作,其餘3人則隸屬於其他國家的機構。圖一:2019–2025年,頂尖中國籍AI研究人員的職業路徑。註:國家隸屬關係基於研究人員目前所在機構的總部所在地。來源:保爾森基金會與卡內基國際和平研究院這對美國的AI競爭力而言是個好消息——或許也令人意外。從歷史上看,赴美攻讀博士學位的中國研究人員留美率極高,約90%會長期留在美國。但在過去五年中美緊張關係加劇的背景下,多項研究表明,多個學科領域選擇離開美國返回中國的研究人員數量大幅上升。在此背景下,我們關於中國出身的AI研究人員的資料,顯示了美國作為AI前沿研究工作地的持續吸引力。但擔憂依然存在。儘管資料顯示美國有能力留住已在美的頂尖AI研究人員,但有跡象表明,美國吸引中國人才的能力正在減弱。儘管相關資料有限,但顯然,如今有更大比例優秀的中國AI研究人員選擇一開始就留在中國,而非前往美國。留美障礙與離美原因近年來,多位備受關注的中國AI研究人員決定離開美國返回中國,這引發了廣泛關注。每位研究人員回國的原因各不相同,且往往帶有個人因素,但近期的地緣政治動盪為希望留美的中國研究人員製造了新的障礙和壓力。自2018年起,一系列針對學生簽證的實際限制和擬議限制——包括討論全面禁止中國學生入境——讓許多中國研究人員陷入不確定狀態。中國申請者面臨簽證續簽的長期拖延,這使他們無法確定自己是否能完成學業並留美工作。許多選擇留下的研究人員表示,受中美科技的緊張局勢和工業間諜活動(industrial espionage)指控的影響,他們的工作被籠罩在懷疑的陰影之下。多起針對在美中國研究人員的備受關注的起訴案件,讓這一群體不寒而慄,但經進一步調查後,其中多數案件都不了了之。2021年一項針對自認為是中國出身的大學研究人員的調查顯示,42%的受訪者表示遭受過美國政府的種族定性(racially profiled)。在此期間,與中國工程師和研究人員的交流中,有多人講述了自己或同事、朋友的電子裝置被美國海關官員沒收並搜查的經歷。新冠疫情期間實施的旅行限制,進一步削弱了中國研究人員赴美或返美的意願和機會。2020年2月,美國總統唐納德·川普(Donald Trump)第一屆政府禁止過去兩周內曾在中國境內的外國公民入境,中國隨後於3月出台了針對入境旅行的限制措施。即便中國於2023年正式重新開放邊境,兩國間的航班數量依然稀缺,如今的每日航班量仍不足疫情前水平的30%。除了這些留美障礙外,中國的AI產業也對海外研究人員產生了更強的吸引力。就在五到十年前,如果有人想在AI研究的全球前沿領域工作,在中國能獲得的機會相當有限。但如今,中國的企業和大學在突破性研究和前沿AI模型訓練方面已迅速趕超,讓這些研究人員無需遠渡重洋、使用第二語言,就有機會從事這類工作。誰選擇留下,誰選擇離開儘管存在這些新的推力與拉力因素,但六年後,資料集中的絕大多數研究人員仍選擇繼續在美國機構工作。在此期間,許多人從美國大學轉入了私營部門。在這87人中,41人目前就職於美國公司,40人在美國大學擔任教授職務,另有6人要麼正在攻讀博士學位,要麼處於博士後研究階段。在就職於美國公司的研究人員中,超過一半受僱於"七巨頭"科技公司(Magnificent Seven)——Google(Google)、亞馬遜(Amazon)、蘋果(Apple)、元宇宙(Meta)、微軟(Microsoft)、輝達(Nvidia)和特斯拉(Tesla),其餘人則效力於美國一些頂尖的AI初創企業。這87人中還有3人在美國創辦了自己的初創公司。儘管100名研究人員中僅有10人返回中國機構工作,但那些選擇回國的研究人員往往具有巨大的影響力。其中2人創辦了自己的初創公司,2人在聚焦AI的科技巨頭中擔任領導職務,5人成為中國頂尖大學的教授。歸國者之一是明星研究人員楊植麟(Yang Zhilin),他於2015年從清華大學本科畢業,隨後前往卡內基梅隆大學(Carnegie Mellon University)攻讀電腦科學博士學位。在卡內基梅隆大學期間,楊植麟作為第一作者發表了多篇被廣泛引用的研究論文,合著者包括多位全球極具影響力的AI研究人員。2023年,楊植麟返回中國創辦了月之暗面人工智慧公司(Moonshot AI),其中文名是為了致敬他最喜歡的專輯。此後,月之暗面融資超過10億美元,並行布了多款全球性能領先的開源大語言模型(open-source OS models)。如今,許多美國初創企業正在採用並基於另一款中國大語言模型Kimi進行研發。他們在解釋這一選擇時,經常提到中國模型往往兼具強大性能和高性價比,而這些是OpenAI和Anthropic等美國企業發佈的封閉專有模型所不具備的。楊植麟的經歷凸顯了一個事實:儘管地緣政治競爭不斷升級,但中美AI研究界依然深度交織,通過人員、思想以及如今頂尖AI模型的豐富跨境流動緊密相連。月之暗面在過去一年迅速完成多輪融資,受到頭部基金、網際網路巨頭與產業資本的密集下注。圖源:VCG錯失下一代人才儘管美國在過去六年成功留住了大部分中國AI研究人員,但有跡象表明,其吸引中國新人才的能力已有所下降——考慮到中國在全球AI人才中的佔比,這一趨勢可能並不樂觀。最初的《全球AI人才追蹤報告》的資料來源於2019年神經資訊處理系統大會(NeurIPS)的研究人員。當時,中國籍研究人員佔該會議論文作者的29%,超過了美國的20%和歐洲的17%。對美國而言幸運的是,這些中國籍作者中的大多數(以及來自世界各地的研究人員)選擇在美國機構開展研究。從這675名頂尖研究人員2019年的所屬機構來看,59%就職於美國機構,相比之下,中國機構佔11%,歐洲機構佔10%。在本科畢業於中國的研究人員中,56%在美國機構學習或工作,37%在中國機構。而在所有就職於美國機構的研究人員中,31%的人本科學位授予自美國,其次是中國(27%),歐洲和印度各佔11%。圖二:頂尖AI研究人員的主要工作國家,2019年與2022年。註:國家隸屬關係基於研究人員目前所在機構的總部所在地。來源:保爾森基金會三年後,保爾森研究所利用2022年神經資訊處理系統大會(NeurIPS 2022)的論文作者資料重新開展了這項研究。到那時,中國籍研究人員佔抽樣作者總數的比例已接近一半,中國機構的佔比也翻了一番多,達到28%。這一數字仍遠低於美國的42%,但已足以表明中國在產出當年眾多頂尖AI研究論文方面極快的追趕速度。這也意味著,更多頂尖中國研究人員選擇留在中國而非前往美國。2022年的研究並未提供本科畢業於中國的研究人員中,有多大比例留在國內攻讀研究生學位並工作的具體資料,但該研究指出,越來越多中國出身的研究人員選擇留在中國。圖三:頂尖AI研究人員的來源國(基於本科教育背景)。來源:保爾森基金會如果這一趨勢持續下去——中國籍頂尖研究人員佔比不斷上升,而其中前往美國的比例持續下降——這對美國競爭力而言並非一個好兆頭。幾十年來,美國積累了大量精英研究人員,他們來自中國但選擇長期在美國生活和工作。如果這類人才流動停止——甚至更糟,出現逆轉——美國將難以培養和吸引足夠多的優秀研究人員來填補這一空缺。"全方位"戰略在建構和部署全球最先進、最高效的AI系統方面,美國仍保持諸多優勢。在獲取用於訓練和運行AI系統的尖端晶片方面,美國相較中國具有顯著優勢。儘管部分中國應用程式迅速崛起,但Google(Google)和元宇宙(Meta)等美國科技巨頭擁有更龐大、更多元化的全球使用者基礎,這讓它們在市場切入點和使用者洞察方面擁有中國同行所不具備的優勢。但美國AI生態系統最強大的長期優勢之一——全球最優秀的研究和工程人才庫——正面臨風險。要降低這些風險,就需要採取"全方位"戰略來培養、吸引和留住世界級AI研究人員。這需要加大對美國高中的投資,讓美國人具備進入AI領域工作的基礎能力;同時需要提供研究經費並確保簽證政策的穩定性,以吸引全球最優秀的國際學生來美攻讀研究生學位;還需要營造良好環境,讓包括中國在內的世界各地最優秀的AI研究人員願意在美國生活並行展事業。這些都並非易事,但前進的道路,以及成敗的關鍵,已然十分明確。 (IPP評論)
小扎親自煲湯!矽谷挖人手段又升級了
OpenAI首席研究官Mark Chen爆料,矽谷AI人才爭奪激烈,Meta首席執行長祖克柏甚至親自烹飪送湯招攬人才。人工智慧企業間的商戰某種程度上並不高科技,甚至可能只關乎於一碗湯。OpenAI首席研究官Mark Chen在一檔播客節目中激情爆料,稱矽谷現在的AI人才爭奪格局已經發生了變化,Meta首席執行長祖克柏甚至自己烹飪並親自送湯來招攬他想從OpenAI挖走的科研人員。Chen透露自己當時非常震驚,但隨後“從善如流”。現在他也會給自己的新員工送湯,並希望從Meta挖走人才。不過,他不會自己烹飪,而是讓矽谷裡的一家高檔韓國餐廳負責製作。他甚至開玩笑稱計畫在OpenAI公司外開設烹飪課,以凸顯出目前矽谷人才競爭中的荒謬感。但不可否認的是,矽谷對於AI頂尖研究人才的爭奪已經進入了一個全新階段。利誘不如走心?Chen表示,Meta對他手下一半的直接下屬都拋過橄欖枝,並為挖角行動投入了100億美元。但他強調,Meta很多次挖角都以失敗告終,因為研究人員相信OpenAI的發展方向,且認為它才會是率先研究出通用人工智慧的公司。儘管如此,今年還是有很多頂尖人才選擇換個東家,且競爭也不僅只在於OpenAI與Meta之間,馬斯克的xAI、微軟、Anthropic,甚至國內大廠騰訊、字節跳動及阿里巴巴也都全情參與人才之戰。這也反映出該行業內關鍵的供需矛盾。業內共識,目前能夠設計和訓練尖端大型語言模型的人才庫極其稀少,全球具備獨立推進這項技術所需專業知識的研究人員可能不足1000人。而由於人工智慧行業允許研究人員提前兌現股權,提供特殊的計算資源獲取管道,並許諾員工在人工智慧系統建構方式中的強大影響力,企業很難用當年網際網路時期的健身房、免費咖啡等福利吸引人才,因此,更多的企業家不得不開始提供一些“情緒價值”。祖克柏的湯就是一個典型案例。企業高管通過建構親密方式來招攬員工,以在薪酬和資源上再次加碼,比如送湯的背後意味十分簡潔明了:你是重要人才,所以值得我花時間來討好。 (科創日報)
美國AI泡沫破裂?比網際網路泡沫慘慘17倍!AI裁員潮背後的隱憂
近日,《Nature》一篇文章討論了這樣一個問題:若AI泡沫破裂,OpenAI、Google等AI公司的科學家將流向那裡?該文章認為他們或將重回學術界,或將創辦AI科技公司,過程中雖然伴隨著裁員與震盪,但從長期看可能促成AI人才與技術溢出到其它領域。資料顯示,2025年前十個月,美國裁員總數已經超過110萬人,科技行業成為重災區。亞馬遜在財報亮眼的同時裁掉了1.4萬名員工,微軟也裁員超過1.5萬人。官方解釋都是圍繞AI展開:為了讓企業更靈活、更高效,必須“精簡組織結構”。然而,真正的原因更深層:巨額的AI投資壓力。微軟、亞馬遜、Google、Meta、甲骨文等科技巨頭在AI算力、晶片、資料中心等方面的資本支出已達到歷史新高。僅微軟今年資本支出就超過600億美元,預計明年接近千億美元。對於任何企業來說,這都是巨額負擔。裁員,成為了最直接的成本控制手段。如果未來幾年AI技術無法兌現盈利預期,整個行業可能面臨泡沫破裂的風險。AI泡沫破裂可能引發一系列連鎖效應:1.股市暴跌AI相關股票佔標普500市值比例接近三分之一,股價下跌可能導致富裕階層資產縮水,消費能力下降。2.企業現金流緊張高債務企業可能面臨流動性危機,被迫裁員或縮減投資,甚至出現破產風險。3.就業市場衝擊初級白領崗位首當其衝,尤其是科技、資料處理、初級程式設計師崗位。AI相關崗位需求可能下降,部分新興產業擴張受阻。藍領崗位暫時安全,但如果經濟衰退波及整體消費,物流、零售等行業也可能連鎖裁員。4.宏觀經濟影響消費下降 → GDP增速放緩。投資收縮 → 科技、建築、核能等相關行業受影響。可能導致美國經濟進入短暫衰退期,經濟增長動力大幅下降。5.金融市場連鎖反應銀行與投資機構可能面臨壞帳風險,高槓桿科技公司觸發市場恐慌,整體投資者信心下降。不過,AI投資也催生了新的就業機會:資料中心建設、核電產業以及新興AI公司,都創造了大量崗位。這說明,AI並非單純的“失業機器”,而是一場產業結構重塑。對比2000年前的那場網際網路技術泡沫,從經濟規模來看,AI泡沫可能會比網際網路泡沫慘烈 17 倍!如果AI泡沫真的來臨,那些OpenAI和Google的頂級大腦會流向那裡?馬里蘭大學學院公園分校(University of Maryland in College Park)的經濟學家Brent Goldfarb表示,如果AI泡沫破裂,AI研究人員和開發者也會面臨類似的裁員。他認為受影響最大的是一大批一窩蜂湧上AI熱潮的初創公司,比如跟風推出會議記錄、「AI科學家」等AI應用的公司。而OpenAI、Google、輝達以及其他主要AI公司「很可能會活下來」。這些公司最不可能做的事情就是砍掉自己的科學核心,因為這才是通往未來的路徑。目前,在AI領域,無論投資規模還是論文發表量,科技行業都遠遠超過學術界。研究者提出一個現象:「AI人才外流(AI brain drain)」——美國科技行業僱傭了幾乎70%的人工智慧相關領域博士畢業生數量,遠遠超過學術界。這導致了在各類基準測試榜單上名列前茅的最大AI模型中,有90%都是由產業界開發的。2025年的美國裁員潮,讓人們對AI既充滿期待,也感到不安。它帶來了經濟增長的引擎,但也潛藏著泡沫破裂的危機。 (HsuDan)
失衡的烏托邦:Meta的開源AI路線是如何遭遇滑鐵盧的
2025年10月底,Meta AI部門宣佈裁員600個職位,甚至核心部門的研究總監,同時掌管AI業務的高管紛紛離職、被邊緣化,就連圖靈獎得主Yann LeCun也被認為自身難保。一方面祖克柏在用上億美元的年薪挖AI人才,但同時又如此決絕的裁員,這樣割裂的行為背後是因為什麼?於是我們採訪了Meta的前FAIR研究總監AI科學家田淵棟、參與了Llama 3後訓練的前Meta員工Gavin Wang、矽谷資深HR專家以及一些匿名人士,試圖還原一下Meta的Llama開源路線到底發生了什麼:為什麼Llama 3還讓眾人驚豔,而僅一年之後的Llama 4就如此拉胯?中間發生了什麼?Meta的開源路線從一開始就註定是個錯誤嗎?AI大模型激烈對戰的當下,一個烏托邦式的AI研究實驗室還能夠存在嗎?01 FAIR與GenAI的誕生 Meta的AI十年佈局與架構搭建首先來看看Meta對AI佈局的整個公司架構。2013年年底,祖克柏開始搭建Meta的AI團隊。當時,Google收購了Geoffrey Hinton的DNN團隊,將Hinton招入麾下,同一時間,Meta將Yann Lecun請來坐鎮AI的發展。至此,圖靈獎三巨頭的兩位開始步入商業科技來主導AI研發。在祖克柏邀請Yann LeCun加入Meta的時候,後者提過三個條件:1.不從紐約搬走;2.不會辭去在紐約大學的工作;3.必須開展開放的研究,公開發佈所做的所有工作,並將程式碼開源。所以,一開始Meta的路線就是開放原始碼的。Yann LeCun進入Meta之後,開始著手前沿的AI研發,組建了Fundamental AI Research實驗室,也就是大名鼎鼎的FAIR實驗室,主導人工智慧的前沿研究。田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:FAIR是負責前沿研究的,就是做一些現在目前看起來沒有特別大的應用,但是新的想法、新的思路、新的演算法、新的框架、新的模型架構。這樣的探索之後可能會有一些大的突破,大概是這樣的一個邏輯。但是對於Meta來說,最終還是要看到AI在自身產品上的進展。於是和FAIR組平行設定了一個組叫“Generative AI”,簡稱“GenAI”組。這個組裡面分別有不同的功能團隊,包括了Llama開源模型的研發,將AI能力運用到產品上的Meta AI團隊,還有AI算力基建的資料中心團隊,其它的還有一些小部門,比如說Search(搜尋),Enterprise(企業服務),Video-gen(文生視訊)模型等等。GenAI和FAIR是平行關係,這像是一個天平,一邊是前沿科研,一邊是產品化。理想情況下,前沿研究能帶來更好的產品力,而產品賺錢了能讓管理層有更大的動力撥款給FAIR去做研發。田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:比如FAIR會提供一些很好的想法和工作給GenAI去用,讓GenAI把這些想法和工作放進生產,然後在下一代模型中使用出來。很多人的初心就是說想做一些不一樣的東西,或者是與眾不同的方向、工作。能不能真正地實現AGI(通用人工智慧)?這其實是個比較大的問題。陳茜矽谷101聯合創始人:所以FAIR的目的是AGI,但是GenAI它的目的是怎麼把AI放在Meta現有的產品中,讓AI發生效應。田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:對,應該說主要一方面是Llama,Llama是一個很大的模型。還有就是怎麼樣把AI比較好地用在一些具體的應用上。但是,讓這樣的天平始終保持平衡,是一個很理想化的烏托邦狀態。而這個烏托邦狀態的前提是,Meta的AI模型水平一直是要保持最領先的,或者說,至少是在開源賽道最領先,且不落後閉源模型太多的。圖片來源:Meta AI陳茜矽谷101聯合創始人:你覺得在FAIR最快樂的一段時光是什麼時候?田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:我覺得從我入職FAIR之後一直到2022年,這段時間是很開心的。因為大語言模型來了之後,整個生態或者說研究者之間的關係發生了一些變化。因為大語言模型來了之後,算力成了很重要的一個因素。因為算力是有限的,所以就會產生各種問題、各種矛盾。大家都要訓練一個很大的模型,如果是這樣的話,相互之間就開始有一些問題,比如說如果我卡多了,你卡就少了。因為卡不多就沒辦法訓練出很好的模型,所以在2023年之後這段時間之內,狀態肯定不會像以前那麼好。而Meta的AI天平是如何失衡的呢?我們可以從Llama的四代發佈中,看到一些端倪和痕跡。02 “開源之光” Llama的昔日驕傲與滑鐵盧?之所以Meta給自家大語言模型取名“Llama”,據說是因為考慮到Large Language Model的縮寫“LLM”不太好發音,所以就補上了元音字母。“Llama”朗朗上口也便於記憶傳播。也正是這樣,大語言模型命名自此才和“羊駝”扯上了關係。Chapter 2.1 Llama 1:開放原始碼的“種子”我們先來看看Llama 1,這也為Meta的大模型“開源”路線奠定了基礎。2023年2月24日,Meta發佈Llama模型,主打“更小參數更好效果”(多規模:7B/13B/33B/65B),強調當時的13B模型可以在多項基準上超過175B參數的GPT-3。而Llama在官宣之後的一周,權重在4chan上以種子形式被“洩露”,引發了AI社區對開源模型的廣泛討論,甚至還引發國會參議員致信質詢Meta。雖然有不少質疑的聲音,但業界對Llama的“意外洩露”出人意料的支援,而這也被視為“大模型開源”的格局重塑,並且很快催生出了諸多的民間微調項目。我們在這裡稍微解釋一下大模型的“開源”定義。其實Meta也不是完全的開源。Meta稱之為“開放權重”(Open weights)。在機器學習中,有三個部分:結構(architecture),權重(weights)和程式碼(code)。所謂“權重”,就是模型學習到的所有參數數值。模型訓練完成後,所有參數會存成幾個巨大的二進制檔案。每個檔案裡保存著每一層神經網路的矩陣數值。而在推理時,模型程式碼會載入這些權重檔案,用GPU進行矩陣運算生成文字。所以“開放權重”就意味著向公眾提供訓練好的參數檔案,外界可以本地載入、部署和微調,但還不是完全的“開源”,因為真正的開源意味著公開訓練資料、程式碼和許可等等。但Meta並沒有公開這些資訊,甚至之後的Llama2、3、4代都僅僅是開放權重,只是在許可證的政策上有些鬆動。雖然Llama屬於“半開源”,但比起OpenAI,Anthropic和Google完全閉源、只通過API介面來提供模型能力服務的公司來說,已經算給開源社區帶來非常旺盛的生命力了。Chapter 2.2 Llama 2: 開放“可商用”2023年7月28日,Meta聯合微軟發布了大模型Llama 2,包含7B、13B和70B參數的三種參數變體。新一代模型的“開源”雖然也是“開放權重”,但對比Llama 1的不可商用、只能申請研究用途而言,Llama 2是一個免費可商用的版本,更放寬了許可證的權限,而Wired等雜誌更是指出,Llama 2 讓“開放路線”對抗封閉模型巨頭成為現實。而我們看到,Llama 2很快在開發者社區風靡起來,它的可得性顯著放大了生態和AI開發。之後,就到了2024年的Llama 3,這也是Llama系列最為輝煌的時刻。Chapter 2.3 Llama 3系列: 逼近閉源陣營步入Llama3的時代,Meta已經成為AI開源社區的頂流存在。2024年的4月到9月,Meta連發三個版本的模型迭代。2024年4月18日,Meta發佈8B、70B兩個規格的Llama 3版本,稱同等規模“顯著超越Llama 2”,並將其作為Meta AI助手的底座之一。之後的7月23日,Meta推出405B、70B、8B三檔Llama 3.1模型,並宣稱405B是“全球最強的開放可得基礎模型”之一;同時登陸AWS Bedrock、IBM watsonx等平台。僅兩個月之後的2024年9月25日,Meta推出Llama 3.2,主打小而全的多模態,新增1B與3B輕量文字模型與1B與90B的視覺多模態模型,面向終端/邊緣場景;AWS等平台同步接入,開源框架平台OLlama亦可本地運行。我們採訪到了Llama 3團隊的Gavin Wang,他負責Llama 3的後訓練工作,對我們表示當時整個Meta,GenAI團隊是在以“光速”前進,真的有種“AI一天,人間一年”的感覺。Gavin Wang前Meta AI工程師,從事Llama 3後訓練:當時Llama3.1/3.2確實是有很多很好的進展,比如多模態是在這個階段裡面發佈的,包括後面他們做Lightweight model(輕量化模型)1B/3B的。我覺得這時候產品化生態取得了很大進展,很多的社群都有支援,包括我有朋友在Llama Stack團隊,他們就是專門支援整個Llama的生態在企業級或者說小企業級的落地。Llama 3的強勢出擊,特別是450B版本被認為是在模型能力上對閉源陣營的逼近,也被認為將快速推動AI應用的落地。而對於Meta內部員工來說,特別是在Llama組的AI工程師們,這是一件非常讓他們值得驕傲的項目。Gavin Wang前Meta AI工程師,從事Llama 3後訓練:當時的敘事是說,Meta是大廠裡面唯一一個剩下開放原始碼的模型,而且還對整個開源生態很有貢獻。當時我覺得很多人都會覺得,這不僅僅是在做一份工作,而是我們真的就是在支援整個AI的前沿的發展,你做的每一件事情都感覺非常有意義,我當時是非常自豪的感覺。我出去跟別人說,我是在做Llama 3的團隊,一些創業公司的創始人他們都會說:非常感謝你的努力。感覺整個技術圈,尤其是AI創業圈,都在指望Llama。Meta乘著東風,期望Llama 4的發佈,能進一步的擴大自身在AI開發社區的影響力,保持“頂尖大模型中的唯一開源存在”。祖克柏在2025年1月底財報會議後發帖說,“我們對Llama 3的目標是使開源與封閉模型具有競爭力,而我們對Llama 4的目標是領先。”然而,三個月之後的Llama 4發佈,卻是一場徹底的災難和滑鐵盧。Chapter 2.4 Llama 4: 滑鐵盧2025年4月5日,Meta推出Llama 4的兩個版本(Scout與Maverick),宣稱多模態與長上下文能力大幅躍進,並在宣傳中高調引用LMArena排行榜上的領先成績:Maverick版本僅次於Gemini 2.5 Pro,與ChatGPT 4o和Grok 3 Pro並列第二。然而很快,開發者社區的反饋並不正面,認為Llama 4的效果不及預期。市面上開始有流言質疑Meta在LMArena上衝到第二名的版本有作弊嫌疑,懷疑Llama 4給LMArena排名的是經過了最佳化的變體,而這個變體經過了對話強化的訓練,存在誤導LMArena、導致過擬合的現象。雖然Meta高層迅速否認了作弊,但影響迅速發酵,一方面,媒體紛紛將此視為“用特調版本刷榜”的“誘餌換包”(bait-and-switch),行業對基準公信力與可復現性的討論升溫;另一方面,Meta更高端的Behemoth版本推遲發佈,公關與節奏嚴重受挫。截至目前,Behemoth還沒有發佈,Meta應該是放棄了。接下來就是大家所知道的,祖克柏開始孤注一擲的大手筆收購Scale AI,把Alexander Wang挖過來領導新的AI架構,之後用上億美元的支票開始挖人,瘋狂攪局矽谷AI人才市場。再之後就是最近的新聞,Alex開始重組整個Meta的AI架構,裁掉600人。但大家看看這個時間線,是不是還是覺得很割裂,在Llama 3和Llama 4的這一年中,發生了什麼?怎麼Llama 4一下子就不行了?這是不是也太快了。我們通過復盤,也許找到了一些答案。還記得我們在前文提到,Meta內部的AI架構是一架天平嗎?Llama 4失敗的原因就是:這架天平失衡了。03 失衡天平 前沿研究與商業化的路線之爭在Meta的AI架構中,FAIR和GenAI是平行的兩個組,Yann Lecun管FAIR,但Yann LeCun很多時候沉浸在自己的研發中,有時候還在網上跟人,比如說馬斯克對戰,還經常說不看好LLM路線,讓Meta很頭疼。於是,2023年2月,Meta高層把Meta AI的研究負責人Joelle Pineau調到FAIR,擔任FAIR的全球負責人,與Yann LeCun兩人一起領導FAIR。圖片來源:Bussiness Insider而GenAI的負責人是Ahmad Al-Dahle,這個哥們兒之前在蘋果工作了快17年,而祖克柏把他挖過來的原因,就是想把AI和Meta的各種產品結合起來,包括元宇宙,智能眼鏡的AI整合,以及聊天工具meta.ai等等。而就在經歷了Llama 2的成功,公司開始研發Llama 3的過程中,Meta高層越來越強調“要將AI用於自家產品”的屬性。於是我們看到,2024年1月,Meta的AI團隊進行了一次重組,FAIR的兩名負責人開始直接匯報給Meta的CPO(首席產品官)Chris Cox。Gavin Wang前Meta AI工程師,從事Llama 3後訓練:整個Llama 1 ~ 3算是一個時代,大家很瘋狂地在卷scaling law(縮放法則),當時整個行業裡都在追隨基礎模型的能力的提升。大家在探索基礎模型、大語言模型本身的能力的邊界。但是Meta的領導層, 像祖克柏和CPO Chris Cox,他們其實很早就意識到大語言模型的能力能夠落地,能真正為社會產生價值,他們肯定是從產品力上去出發的。所以說當時Llama 2和Llama 3的階段,整個GenAI的核心目標是讓研究成果真正產品化、工程化。也因此就是在最高管理層層面,包括副總裁、高級總監的高層,是由一些之前更多的是產品背景和工程背景的人來領導的。在Llama 3成功推出,Meta高層開始制定Llama 4的路線之際,所有的注意力都放在了與產品結合上,也就是多模態能力,因此忽視了對模型推理能力上的重視。而就在Llama 3到Llama 4的這一年研發過程中,2024年9月12日,OpenAI推出了基於思維鏈的o1系列模型,之後的2024年12月,中國的deepseek開源模型橫空出世,用MOE混合專家架構在保證推理能力的情況下大幅度降低了模型成本。陳茜矽谷101聯合創始人:你在被拉去救火Llama 4之前,手上在研究什麼?田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:我們這邊在做一些關於推理的一些研究。主要是關於思維鏈,包括思維鏈的形態和訓練的方式做了一些研究。o1是去年9月份出來的,其實我們在o1出來之前,就注意到非常長的思維鏈會對整個模型的scaling law(縮放法則)產生影響。圖片來源:arxiv其實FAIR組中,田淵棟等研究員已經在著手思維鏈的研究,但這樣對推理能力的前沿探索並沒有及時傳達到Llama模型的工程上。Gavin Wang前Meta AI工程師,從事Llama 3後訓練:Llama 4規劃的時候,就會感覺到這個地方可能領導層的方向有一些變化。我認為總體來說他們還是想要支援Meta本身重點去推的一些產品,就是Llama本身的生態,多模態肯定是其中的一個重點。但是DeepSeek在1月份的時候橫空出世,它們的推理能力非常的強。推理能力在當時也是討論的其中一個方向,但是因為Meta本身的生態,它們更看重多模態,沒有重點去做推理。但是當DeepSeek出現了以後,那時我實際上已經離開了Llama的團隊,不過據說當時他們有在討論說是不是要重新把推理的地方撿起來,但這個地方可能優先順序上有一些衝突,加上時間也非常的有限,就導致大家加班加點地做了很多的嘗試,非常得忙。我覺得DeepSeek的出現肯定是造成了公司裡面資源還有優先順序管理上的一些混亂。還有一點,我覺得Llama 1~3整個模型的架構和組織的架構,是延續了一開始的設計。但是因為Llama 3的成功,大家就希望Llama 4能夠更進一步,能夠做一些更大的工程。那這個時候可能出現了一些問題,我的觀察就是公司比較高層的,像副總裁、資深總監這個層面,他們很多人是比較傳統的基礎架構、電腦視覺背景,可能自然語言處理背景的都比較少。所以可能他們技術層面對於AI原生技術或者是大語言模型這些東西就沒有一個深度的理解和認識。真正懂行的,可能是下面具體做事的一些博士,尤其是我們非常驕傲的是,華人的博士都是技術非常紮實的。但是他們獲得的話語權,或者說在公司內部的資源沒有那麼多。所以說可能不知什麼緣故就造成一種外行管理內行的一些局面出現。圖片來源:DeepSeek因為OpenAI的o1系列和DeepSeek的出現,讓Meta在2025年年初亂了陣腳。於是,高層臨時讓FAIR的研究團隊去支援Llama 4的研發,或者可以直接說是去“救火”,而這個“救火團隊”就是田淵棟帶隊的。田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:我覺得現在很大的一個教訓就是,做這樣的項目不能讓不懂的人來做整個的領導者或者做整個的規劃。如果有些東西出了問題的話,應該是大家說:ok,我們不能在這個時候發佈,我們再往後拖。應該是採用一種,我拖到什麼時候結束能夠正常運作才發佈的階段。而不能說把deadline先定好,不然的話有很多事情是做不好的。我覺得我們組裡面當時很多人非常累,比如說像我是在加州,因為我有幾個團隊成員在東部時區,他們晚上12點給我打電話,他們那邊已經3點鐘了,還在幹活,所以非常的辛苦。為什麼他們那麼辛苦呢?是因為deadline壓得很緊。比如說我們的deadline就是要計畫在某一天要發佈,項目管理就需要從後往前倒退,然後看2月底或者3月初一定要做什麼事情、3月底要做什麼事情。但如果你在做這些事情的時候,你發現這個模型這方面不行,或者說資料有什麼問題,在這種情況下,我覺得有一個很大的問題就是,你怎麼樣能夠讓大家因為你這句話停下來。就比如說,我說這個資料有問題,不行,我這個資料不能用,我們得換一個資料。那這樣的話就多出事了,我們得把整個事情往後延一個星期、兩個星期。但這個事情能不能做到是一個很大的問題。如果在很強的deadline壓力之下,最後結果就是這事情做不了,或者說大家沒有辦法去提出異議,那這樣的話最後的質量就會變得很差。這是一個比較大的問題。陳茜矽谷101聯合創始人:為什麼Meta會有那麼強的壓力在deadline上面呢?因為開源模型,其實它已經是第一了。當然,DeepSeek在年初的時候出來,大家都沒有意料的到。但是為什麼它有那麼強的deadline說我一定要在這個時候把這個東西推出來?田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:應該說有個上面高層定下的deadline,但這個我就不方便說了,可能能你要去問一下相關的人,懂的都懂。圖片來源:Meta我們在這裡基本上能有一些答案了,從Llama 3開始,“將AI產品化”這樣的路線就已經制定,整個模型注重多模態和應用、忙於整合應用和業務,但卻忽略了推理和更前沿的技術研發。這讓天平另一邊的FAIR團隊不得不跨組來“救火”,就這樣,天平失衡了。田淵棟前Meta基礎AI研究(FAIR)團隊研究總監:但實際情況其實是因為前沿模型的競爭太激烈了,所以基本上很難真的去用FAIR這邊的一些文章。雖然有些文章是被用到了,但是我們在交流的過程中還是會存在一些問題。我當時就是在FAIR的時候,我有時候Ping(發資訊給)GenAI的人,他們都不理我,這是什麼情況?但是真的我去了GenAI之後我會覺得,確實我也沒法理他們(FAIR研究員們)。因為太忙了,比如說我半小時不看手機,可能就有20條、30條的消息要去看,有很多的人要找,有很多的事情要決定。所以我也能理解了,在GenAI這樣的環境下,很難有比較長期的思考過程。而祖克柏是如何修復這個失衡的天平呢?他直接空降了一個特種部隊:由Alex Wang帶隊的TBD團隊。04 空降“新王” 28歲Alex Wang獲“無限特權”Meta的AI業務架構如今再一次重組之後,高層也經歷了一系列的動盪。Alex Wang帶領幾十位高薪聘請來的頂級研究員,單獨成立了這個在Meta內部擁有無限特權和優先順序別的特別小組TBD。TBD,FAIR和GenAI一起組成Meta Superintelligence Labs(MSL部門),直接匯報給Alex,而Alex直接匯報給祖克柏。這也意味著,FAIR的Yann LeCun如今也匯報給Alex,而Joelle Pineau此前被要求匯報給GenAI組的負責人Ahmad。我們看到,Joelle已經在今年5月離職,去了Cohere做首席AI官;而Ahmad說實話已經很久沒有什麼聲音了,也沒有被任命負責任何重要的項目;而CPO Chris Cox也被Alex搶了風頭,排除在了AI團隊的直接領導者之外。所以現在的架構就是,28歲的Alex一人獨大的局面。我們聽到過Meta內部各種對Alex和他領導的這支極度有特權小組的不滿,包括TBD團隊裡的人可以三年不用做績效考評、可以不理不回其它任何VP的資訊、Meta AI的所有paper都要給TBD裡面的人去稽核才能給發表。要知道,TBD裡面不少人比較年輕,這是讓很多資深的研究員非常不滿, 反正就是各種內部政治鬥爭感覺又要起來一波。但不可否認的是,特權的等號後面是成績。這個成績對於祖克柏來說,不僅僅是Make Llama Great Again(讓Meta再次偉大),而是“Meta has to win”(Meta必須贏)。在這場AI競賽中,目前的這場重組,也許對於祖克柏來說是最後的一次,也是最重要的機會。而Alex在團隊內部郵件中就寫到他將做出的三個改變:1.集中TBD和FAIR團隊的核心基礎研究力量;2.提升產品和應用研發的融合、且繼續以產品為模型聚焦點;3.成立一個核心基建團隊來支援研究押注。Tom Zhang矽谷資深人才專家:第一條就是把基礎研究、TBD Lab和FAIR更集中化,就讓它兩個更緊密的去結合。所以這回裁掉的一些研究人員,郵件上也說,可能他們的項目沒有那麼高的影響力。你再做一些前沿的研究,但和我們現在沒有關係,因為很多前沿研究是高度抽象的,是從數學的角度,從很多理論的角度,它其實和工程的離得比較遠。第二個就是把產品和模型更緊密地結合,和Alex Wang一起進來的人,有一個就是GitHub的原來CEO。等於祖克柏同時引進了兩個高端人才,一個是Alex Wang,統一來說就是管模型的;一個GitHub前CEO Nat Friedman,他是偏產品的,因為產品才能給這個模型更好的反饋,在用的過程中進行飛輪效應。第三條是組建一個統一的核心基礎設施(Infra)團隊,就把管卡的資料中心團隊更集中化。過去很可能是很散的,好幾個領導都在,你要卡你得來申請。現在卡這個事也是統一來管理。所以這個郵件寫得還是挺清楚的。而Alex能否撐得起祖克柏的押注呢,也許很快我們就會有答案。圖片來源:Bussiness Insider總結一下,Meta在Llama前三代都還是領先的開源模型,引領著開源派去對抗OpenAI和GoogleGemini這樣的閉源派。然而,在Llama 3大獲成功之後,公司高層急於將AI結合產品化,在規劃路線的時候用“產品驅動研發”的思維,將Llama 4的升級聚焦在多模態等工程性能上,但卻錯失了思維鏈(CoT)等推理上的前沿技術時間優勢。雖然當時田淵棟等FAIR的AI科學家已經在研究CoT了,等DeepSeek引發轟動之後,又將FAIR的田淵棟團隊臨時救火最佳化Llama 4上的MoE架構,反而又中斷了CoT和推理上的研發,導致AI前沿技術研究和產品工程這架天平徹底失衡。在採訪過程中,我腦中不止一次閃過歷史上那些閃耀一時的前沿實驗室:貝爾實驗室、IBM Watson Research、HP實驗室等等,但基本都因為無法平衡前沿科研和商業化而日益衰落,十多年歷史的FAIR,曾經是一群理想化AI科學家的烏托邦之地,而如今又成了另一個商業化的犧牲品。你認為這場由Llama 4失敗引發的大重組,是Meta AI的最後機會嗎?歡迎在評論區留言告訴我們。 (矽谷101)
矽谷今夜學中文! Cursor被曝「套殼」中國製造,AI頂級人才全是華人
矽谷AI圈最近魔幻事件,不會中文進不了AI核心小組。開完會,全說漢語,老外懵了!連模型在思考時,也在說中文~如果你有在關注最近矽谷的AI圈子,你會發現最近出現一個神奇的現象。當中國都在學英文看文獻的時候,國外的AI圈都說中文了!簡直是倒反天罡。以Meta為例,如果你不會中文,都混不進核心團隊。正式開會說英文,散會後大家集體用中文嘮嗑。現在換老外懵圈了!前幾周OpenAI一個會議,一進門,三百人的會場整個左小半邊都是華人。更有趣的是,當華人成為AI頂尖人才的認證標籤後,連中國的開源模式也被老外偷師。海外模型「偷師」傳說Cursor最近剛發布2.0版本,並推出了他們的第一個自研模型Composer。但很快打臉就來了,網友發現Composer動不動就給他「說中文」。在包裹的思考過程中,Cursor這個所謂的自研模型說的都是中文。這讓老外再一次懵B。最有趣的是Windsurf,直接承認自己拿著GLM-4.6的定製版本進行微調和強化學習。除了「頂級AI人才說中文」和「模型用中國開源大模型微調」這兩個主動選擇,現在連一些大佬都開始放棄OpenAI和Anthropic而被動選擇中國的開源模型。為什麼?因為模型量大管飽,性能還好,還便宜。最近一個消息真的讓我們感覺老外現在不僅不迷信OpenAI等閉源模型,而且紛紛開始選擇中國的模型了。例如Chamath Palihapitiya表示,他的團隊將大量工作負載遷移到了Kimi K2,因為它的效能顯著更好,而且比OpenAI和Anthropic 都便宜得多。這哥們是美國知名的企業家和投資人,他的聲明還是能夠說明一個問題:中國開源大模型,是真的香!不過評論區還是有些冷靜的聲音,說這哥們早期投資了Groq(不是馬斯克那個Grok)。而這次他們團隊從Bedrock(據說是前20大客戶)遷移到Groq上的Kimi K2,因為模型的效能更優!但背後其實可能為了宣傳Groq的服務。這次Cursor為什麼在思考過程頻繁「說中文」,網友們也總結出兩個主要原因:1. 自研難度與成本過高。以Cursor的資源體積,從零預訓練一套強模型的可能性很小,更像是在開源的SOTA智能體模型上做二次訓練;因此出現「說中文」的情況並不奇怪,這更像是底座與訓練資料選擇的結果。2. Composer的滯後與避戰。Composer大機率是用「幾個月前」的開源SOTA做微調,但大模型迭代極快:等推向市場時底層已落後。於是既不願與當下最新的開源SOTA正面對比,又對底層細節諱莫如深;即便融資可觀,仍難擺脫「更多是個殼子」的質疑。總之還是一句話,中國的開源模型,真香。從國外數據網站的統計數據就能看出來。在能力這塊,中國開源穩居第一梯隊在Artificial Analysis Intelligence指數榜單上,除了排在前幾名是閉源的OpenAI的GPT-5、Google的Gemini 2.5、xAI的Grok、Anthropic的Claude 4.5以外,緊隨其後的都是開源模型。而且,大部分都是中國模型:MiniMax-M2、DeepSeek-V3.1、Qwen3-235B-A22B、GLM-4.6、Kimi K2。而開源老祖Meta的Llama,以及相關的微調版本,都得排到他們後邊。而在Coding指數榜單上,依然如此,DeepSeek V3.1要比Google的Gemini 2.5 Pro還要好。智能體榜單上,Kimi、GLM和Qwen也排到了前面。如果按照開源和閉源劃分,全球AI模型的能力中,開源真的很能打。不要忘了,這只是能力榜單,如果再考慮中國開源模型的價格,確實就真香了。在隨著時間,AI能力增長這件事上,雖然OpenAI一直遙遙領先,但MiniMax、DeepSeek、Qwen、GLM、Kimi追改的速度一點都沒有落下。這波AI浪潮,不僅改變了世界科技的走向,甚至對於人才標籤的認知也同樣被改寫。說起來,能把單一頂尖人才的薪水公開喊價到上億美金,也就是前段時間Meta的祖克柏首創的。矽谷頂級華人有那些?首先是Meta。在剛組成幾個月的超級智慧實驗室(Meta Superintelligence Labs)中,最初的44人團隊裡差不多有一半都是華人。其中,趙晟佳和後來加入的宋颺,分別擔任首席科學家和研究負責人。MSL首席科學家,趙晟佳(Shengjia Zhao)。趙晟佳本科畢業於清華大學,史丹佛大學電腦科學博士學位。2022年6月畢業後就加入了OpenAI技術團隊。工作經驗僅有3年的他,履歷上已有了多項輝煌戰果。還在OpenAI時,他是多項里程碑突破背後的關鍵人物。引爆全球AI浪潮的ChatGPT的初始團隊成員GPT-4的核心貢獻者OpenAI首個AI推理模型o1的核心研究員,與OpenAI聯合創始人Ilya Sutskever一同被列為「奠基貢獻者」深度參與mini系列的構建,包括4.1和o3負責OpenAI合成資料團隊作為開啟AI「思考」能力的第一個推理模型,o1的成功,直接推動了整個產業在「思維鏈」技術上的發展熱潮。延伸閱讀:清華校友趙晟佳,出任Meta超級智慧首席科學家! GPT-4核心功臣MSL研究負責人,宋颮(Yang Song)。宋颮本科就讀於清華大學數理基礎科學班,博士畢業於史丹佛電腦科學專業,研究方向聚焦生成模型與多模態推理。在學術界,他以「擴散模型」研究聞名,是該領域的技術奠基者之一。他曾在Google大腦、Uber ATG、微軟研究院等機構實習,擁有豐富的工業與理論背景。2022年加入OpenAI後,他組成「策略探索」團隊,圍繞更大規模、更複雜數據、更高維模態進行方法論探索與系統落地。擴展閱讀:突發! Meta剛從OpenAI挖走了清華校友宋颮比起Meta,OpenAI團隊裡的華人其實更多。每逢重磅發布,從長長的貢獻者名單到直播現場,都少不了華人科學家的身影。不過,擔任高階主管職位的,就只有首席研究官陳信翰(Mark Chen)了。陳信翰的母親邱瀞德是台灣清華大學教授,現任資訊系統與應用研究所所長;父親陳建任曾任亞光電董事長。他高中時曾隨家人從美國回台。在新竹實驗中學的雙語部就讀時,他接連在數學競賽AMC10、AMC12和AIME中取得滿分,並憑此優異成績進入麻省理工學院(MIT)。在MIT獲得數學和電腦科學雙學位後,陳信翰進入一家自營交易公司從事量化投資工作,負責為股票和期貨開發機器學習演算法。在OpenAI的七年時間裡,陳信翰從研究科學家逐步晉升為首席研究官,負責模型開發和公司整體研究工作。在此期間,他領導了多項里程碑式的項目,包括o1系推理模型、文字到圖像模型DALL-E,以及融入視覺感知的GPT-4等等。值得一提的是,剛以突破性進展登上Nature封面的Google量子人工智慧團隊,他們的處理器總監Yu Chen也是華人。Yu Chen先後在中國科學技術大學取得物理學理學士學位,並在明尼蘇達大學取得凝聚態物理學博士學位。在加州大學聖塔芭芭拉分校做了4年博士後研究後,他於2014年加入Google,擔任量子研究科學家。除了這些AI頂尖人才,還有很多耳熟能詳的華人大佬。例如輝達的CEO 黃仁勳、AMD的CEO 蘇姿丰、英特爾的陳立武等等。開源「電廠」,好用又便宜除了人才和模型訓練,許多提供API的平台公司,也紛紛連結中國的開源模型。例如Vercel的老闆Guillermo Rauch就表示,鑑於GLM-4.6的出色表現,「在nextjs.org/evals中排名第三,並且是前五名中唯一的開源模型」。現在,他們不僅提供GLM-4.6的API服務,而且價格也是最低的。10月22日,Airbnb CEO Brian Chesky在訪談中表示,Airbnb的客服AI現在由13個模型組成。關鍵是,他公開承認Airbnb「在很大程度上依賴Qwen來支援AI客服。」甚至表示Qwen比OpenAI的產品更好更便宜。除了這些平台類公司無需開發基礎以外,像Cursor這種一直被喊套殼的公司,想要從零開始預訓練一個模型花費不菲,而且是針對Coding領域的特定模型,純粹預訓練得不償失,那該在怎麼辦?就像網友說的,最好的方法就是找一個開源模型去微調。那現在全世界開源領域最好的模型也就是中國耳熟能詳的那幾家了。而且不僅開源,而且開源選擇的協定都是最友善的。網友們還在Windsurf中直給提問,你是誰,誰開發了你?Windsurf的模型直接回答我就是「GLM」~如果說AI是新時代的電力,那麼以上這些跡象正在表明,我們正在從「世界工廠」轉變為AI的「世界電廠」。透過開源,我們正在搶佔全球AI時代的基礎設施定義權。當一個開源的中國模型能提供80%的效能,而成本只有20%時,選擇是顯而易見的。當這個模型能提供100%甚至110%的效能(如DeepSeek-V3.1在編碼上的表現),而成本依然低廉時,它就從「備選項」變成「最優解」。Cursor被網友抓包時的尷尬,恰恰揭露了矽谷開發者的一種矛盾心態:身體可能很誠實地擁抱中國模型,但在宣傳上仍試圖維持「矽谷原創」的政治正確。最後總結一下,「倒反天罡」的不僅是AI人才中華人的佔比,更重要的技術流向。當矽谷的工程師們為了優化成本和性能,不得不開始研究GLM和Qwen的文檔時,這場關於下一代AI技術浪潮的牌局,才算真正進入了最精彩的下半場。One More Thing不過我們也不能「高興」太早,在AI領域的人才上,華人現在一種標籤。但是,如果看看各大科技公司的CEO,你會發現,印度老哥們也不甘示弱。例如Google的CEO劈柴哥,Sundar Pichai。例如微軟的CEO,納德拉Satya Nadella。例如IBM的CEO,Arvind Krishna。例如Adobe的CEO,Shantanu Narayen。例如霍尼韋爾的CEO,Vimal Kapur。以上這些CEO們都是印度老哥,其中不乏AI科技領域的掌舵人,例如劈柴哥和納德拉。參考資料:https://x.com/FuSheng_0306/status/1983894938669433044https://x.com/auchenberg/status/1983901551048470974https://x.com/AI_Whisper_X/status/1983819229737652336https://x.com/artificialanlys/status/1983915999998230932 (新智元)
下一個300萬!全球AI人才爭奪戰,中國的“機會窗口”來了?
國際金融論壇(IFF)今年7月發佈的報告顯示,全球AI人才總量約300萬人,其中美國佔約三分之一,中國佔比22.4%,排名第二。更為驚人的的是,目前在中國內地工作的AI人才中,高達42%擁有美國的工作或學習經歷。然而,矽谷正經歷一場特殊的人才遷徙——中國AI科學家在美國完成技術積累後加速回流。資料顯示,2023年已有47位美企華人AI專家回國創業,較2022年增長62%。而根據媒體統計,自2024年開始,大批來自中國的世界頂尖科學家回國任職。包括,普林斯頓核聚變專家劉暢和美國埃默裡大學教授胡懿娟回歸北京大學,電腦科學家和區塊鏈專家陳婧回到母校清華大學任教,多模態人工智慧大咖齊國君紮根西湖大學,AI製藥領域重量級學者符天凡加盟南京大學電腦學院,劍橋大學卡文迪許實驗室博士後潘林楓加盟上海交通大學,癌症科學家孫少聰加盟首都醫科大學,美國國家工程院院士陳滬東落地浙江大學能源工程學院等等。最近一例頗為引人注目的無疑就是,全球頂尖AI科學家、IEEE Fellow許主洪(Steven Hoi)已加盟阿里通義,轉向通義大模型的相關研發工作。許主洪擁有超20年AI產業和學術經驗,是新加坡管理大學終身教授、曾任新加坡南洋理工大學終身副教授,在AI領域發表了300多篇頂級學術論文,論文被引用超過5萬次,曾被史丹佛大學評為全球頂尖1%的AI科學家之一。在此之前,另一位全球AI產業轟動的是來自Deepseek的潘梓正了。前輝達實習生,在2023年夏天毅然放棄了美國的機會,選擇加入北京的DeepSeek。當時深度求索團隊僅有3名成員,潘梓正成為公司的第四名員工。後來,他成為DeepSeek-R1模型的關鍵開發者之一。這讓哈佛大學教授格雷厄姆·艾利森也不得不感嘆,美國錯失了這位AI領域的“錢學森”。如上所述頂尖科學人才的回歸並非個例,已初步形成一種潮流。這一方面是由於美國科技裁員潮迫使華人科技精英另尋出路,尤其是川普上台之後大幅削減科研經費以及不友好的簽證政策更起到一種推波助燃的作用。根據《自然》雜誌日前發佈的一項資料:在接受調查的美國科學家中,有75%的人表示正在考慮離開美國。與此同時,中國對包括海外華人在內的科研人員吸引力越來越大。根據官方資料顯示,中國每年投入的研究與試驗發展(R&D)經費自2020年以來增長近40倍。2024年中國研發經費投入超過3.6兆元人民幣,同比增加8.3%。目前研發經費總量僅次於美國,位居全球第二。更重要的是,隨著中國科技產業的蓬勃發展,尤其是人工智慧、自動駕駛、機器人等產業需求的落地,這為技術的商業化提供了廣闊的天地,也為參與的科技人員提供了豐厚的經濟回報。如中國AI公司不僅給予頂尖技術人才高額的薪資,同時給予股權激烈,綜合下來,其回報將是美國同崗位的3倍以上。這也造就了中國史上最大的留學生“歸國潮”。如2023年歸國的留學生突破30萬人,是近十年來的歷史新高;不僅如此歸國留學生中大部分簡歷都想當硬核,有麻省理工、史丹佛博士後;也有Google、Meta、輝達的高級工程師等。這令美國專家不得不發出警告:“中國人才是美國ai的秘密武器,美國將無人可用!”根據國際金融論壇的報告預測,到2030年底,全球AI人才增長量將達280萬人以上,五年時間實現接近100%的增長。如上所述,種種跡象表明,這場全球化的人才爭奪戰才剛剛開始。在美國愈發封閉的人才政策的當下,中國以全球科技產業最大“試驗場”的獨特優勢正吸引越來越多科技人才的加入,尤其是尖端的AI人才!可以說,這場橫跨太平洋的AI人才遷徙,正在重塑全球技術競爭格局。 (飆叔科技洞察)
小札把馬斯克機器人一號挖走了
馬斯克在忙著裁人,小札這邊繼續忙著挖人。這不?Optimus AI團隊負責人Ashish Kumar決定離開特斯拉,加入Meta擔任研究科學家。至於離職感言,他說:帶領Optimus AI團隊的經歷非常精彩且難忘。我們全力推進可擴展方法——以強化學習取代傳統技術堆疊,並透過視頻學習來提升機器人的靈巧度。他也進一步強調,人工智慧才是解鎖人形機器人的最關鍵因素。與此同時,小札砸錢挖人的形像已經深入人心,使得網友不禁銳評,有10億美元嗎?Optimus團隊負責人接連出走那這位Optimus AI團隊負責人到底是何大神?Ashish Kumar,UC伯克利博士,導師是被李飛飛尊稱為「學術祖父」的Jitendra Malik教授,因在CV領域的研究而聞名。2015年,Ashish本科畢業於印度理工學院焦特布林分校,之後到微軟位於印度的實驗室做了兩年研究員,研究方向是資源高效的機器學習演算法。2017年,Ashish從職場重返校園,開始到UC伯克利攻讀博士,2023年7月他以ML科學家的身份加入特斯拉,一年多之後便成為柯博文的AI負責人。除此之外,在柯博文出走的不只這一位,今年6月,Optimus項目負責人Milan Kovac宣佈離職。Milan Kovac在2008年本科電氣工程專業畢業後,曾從事遊戲開發者。他的第一份工作是在比利時動作辨識公司SoftKinetic,主要負責不同平台的移植工作,後來為英特爾開發視覺元件。4年後該公司被索尼收購,Kovac輾轉了幾家公司,於2016年4月正式加入特斯拉,擔任Autopilot核心團隊工程師,負責Autopilot底層處理程序管理工作,後歷任自動駕駛軟件工程經理、高級工程經理以及Autopilot軟件工程主管。2022年,Kovac升任Optimus項目負責人,在他的領導下,特斯拉的人形機器人從概念發展為一款功能齊全的第二代雙足機器人,並能在特斯拉工廠中自主工作。可以說,作為特斯拉9年老將,Kovac從自動駕駛起步,然後作為創始成員從零開始打造柯博文。對此,馬斯克特意在他推文底下感謝了他過去十年傑出貢獻。(這次負責人離職咋沒有感謝呢,不會是……)關於機器人,前一陣特斯拉發布《宏偉藍圖4》後,馬斯克曾透露:特斯拉未來80%的價值將來自Optimus。但這負責人頻頻出走,馬斯克的機器人大業還能順利展開嗎?One More Thing馬斯克外有小札虎視眈眈,內有親密顧問與高階主管爆發衝突。據《華爾街日報》爆料,由於對公司管理和財務狀況感到擔憂,xAI的幾位高管在與馬斯克的兩位最親密的顧問發生衝突後紛紛離職。△Jared Birchall和John Herin這兩位顧問分別為Jared Birchall和John Herin,主要負責監督xAI的日常運營,而馬斯克作為執行長負責做出最終決策。知情人士稱,xAI部分高層在內部曾對Birchall和Hering試圖代表馬斯克名義管理公司的方式表示反對,並認為他們缺乏正式的指揮鏈。所以說,馬斯克的AI之路,下一步是不是得先調整組織架構了。參考連結:[1]https://x.com/ashishkr9311/status/1968827611133427772?s=46[2]https://x.com/sawyermerritt/status/1968831226585739667?s=46[3]https://www.wsj.com/tech/ai/elon-musk-xai-executives-advisers-clash-eac3913b?utm_source=chatgpt.com (量子位元)